Imitation learning (IL) is a simple and powerful way to use high-quality human driving data, which can be collected at scale, to identify driving preferences and produce human-like behavior. However, policies based on imitation learning alone often fail to sufficiently account for safety and reliability concerns. In this paper, we show how imitation learning combined with reinforcement learning using simple rewards can substantially improve the safety and reliability of driving policies over those learned from imitation alone. In particular, we use a combination of imitation and reinforcement learning to train a policy on over 100k miles of urban driving data, and measure its effectiveness in test scenarios grouped by different levels of collision risk. To our knowledge, this is the first application of a combined imitation and reinforcement learning approach in autonomous driving that utilizes large amounts of real-world human driving data.
translated by 谷歌翻译
最佳决策要求分类器产生与其经验准确性一致的不确定性估计。然而,深度神经网络通常在他们的预测中受到影响或过度自信。因此,已经开发了方法,以改善培训和后HOC期间的预测性不确定性的校准。在这项工作中,我们提出了可分解的损失,以改善基于频流校准误差估计底层的钻孔操作的软(连续)版本的校准。当纳入训练时,这些软校准损耗在多个数据集中实现最先进的单一模型ECE,精度低于1%的数量。例如,我们观察到ECE的82%(相对于HOC后射出ECE 70%),以换取相对于CIFAR-100上的交叉熵基线的准确性0.7%的相对降低。在培训后结合时,基于软合成的校准误差目标会改善温度缩放,一种流行的重新校准方法。总体而言,跨损失和数据集的实验表明,使用校准敏感程序在数据集移位下产生更好的不确定性估计,而不是使用跨熵损失和后HOC重新校准方法的标准做法。
translated by 谷歌翻译
随着机器学习模型在自动驾驶汽车(AV)的运动预测系统上变得越来越普遍,至关重要的是,我们必须确保模型预测是安全可靠的。但是,详尽地收集和标记充分测试稀有和挑战性场景的长尾所需的数据是困难且昂贵的。在这项工作中,我们构建了一个新的基准测试,用于通过将扰动应用于现有数据来评估和改善模型鲁棒性。具体而言,我们进行了广泛的标签努力,以识别因果因素,或者在Waymo Open Motion数据集(WOMD)中以任何方式影响人类驾驶员行为的代理,我们使用这些标签来通过删除非carusal剂来扰动数据从现场。然后,我们在我们提出的基准上评估了一套各种最先进的深度学习模型体系结构,并发现所有模型在扰动下均显示出很大的变化。在非作业扰动下,我们观察到$ 25 $ - $ 38 \%$ $相对变化,而与原始相比。然后,我们研究以提高模型鲁棒性的技术,包括增加训练数据集的大小以及使用靶向数据增强,这些数据增加在整个培训过程中都放下了代理。我们计划提供因果代理标签作为womd的附加属性,并释放稳健性基准,以帮助社区建立更可靠和安全的深度学习模型,以进行运动预测。
translated by 谷歌翻译
最大化模型准确性的常规配方是(1)具有各种超参数的多个模型,以及(2)选择在固定验证集中表现最佳的单个模型,从而丢弃其余部分。在本文中,我们在微调大型预训练的模型的背景下重新审视了该过程的第二步,其中微调模型通常位于单个低误差盆地中。我们表明,平均多种模型的权重以不同的超参数配置进行了微调通常提高准确性和鲁棒性。与传统的合奏不同,我们可能会平均许多模型,而不会产生任何其他推理或记忆成本 - 我们将结果称为“模型汤”。当微调大型预训练的模型,例如夹子,Align和VIT-G在JFT上预先训练的VIT-G时,我们的汤食谱可为ImageNet上的超参数扫描中的最佳模型提供显着改进。所得的VIT-G模型在Imagenet上达到90.94%的TOP-1准确性,实现了新的最新状态。此外,我们表明,模型汤方法扩展到多个图像分类和自然语言处理任务,改善分发性能,并改善新下游任务的零局部性。最后,我们通过分析将权重平衡和与logit浓度的性能相似与预测的损失和信心的平坦度联系起来,并经过经验验证这种关系。代码可从https://github.com/mlfoundations/model-soups获得。
translated by 谷歌翻译
尽管他们能够代表高度表现力的功能,但深度学习模型似乎找到了简单的解决方案,这些解决方案令人惊讶地概括了。光谱偏见 - 神经网络优先学习低频功能的趋势 - 是对此现象的一种可能解释,但是到目前为止,在理论模型和简化实验中,主要观察到了光谱偏差。在这项工作中,我们提出了用于测量CIFAR-10和Imagenet上现代图像分类网络中光谱偏差的方法。我们发现这些网络确实表现出光谱偏差,并且提高CIFAR-10测试准确性的干预措施往往会产生学到的功能,这些功能总体上具有较高的频率,但在每个类别的示例附近频率较低。这种趋势在培训时间,模型架构,培训示例的数量,数据增强和自我介绍的变化之间存在。我们还探索了功能频率和图像频率之间的连接,并发现光谱偏置对自然图像中普遍存在的低频敏感。在Imagenet上,我们发现学习的功能频率也随内部类别的多样性而变化,并且在更多样化的类别上具有较高的频率。我们的工作使测量并最终影响用于图像分类的神经网络的光谱行为,并且是理解为什么深层模型良好概述的一步。
translated by 谷歌翻译
执行零摄像推理时(即,在特定数据集上不进行微调)时,大型预训练的模型(例如剪辑或ALIGN)在一系列数据分布中提供一致的精度。尽管现有的微调方法显着提高了给定目标分布的准确性,但它们通常会降低分配变化的稳健性。我们通过引入一种简单有效的方法来提高鲁棒性,同时进行微调:结合零拍和微调模型(Wise-ft)的重量。与标准的微调相比,Wise-FT在分配变化下提供了巨大的准确性提高,同时保留了目标分布的高精度。在Imagenet和五个派生的分布变化上,Wise-FT在先前的工作中提高了分布转移的准确性4至6个百分点(PP),同时将Imagenet精度提高1.6pp。Wise-ft的稳健性相似(2至23 pp),明智之前与七个常用的转移学习数据集的标准微调相比,在一组进一步的分配转移的各种集合中,准确性增长率为0.8至3.3 pp。这些改进在微调或推理期间没有任何额外的计算成本。
translated by 谷歌翻译
We build new test sets for the CIFAR-10 and ImageNet datasets. Both benchmarks have been the focus of intense research for almost a decade, raising the danger of overfitting to excessively re-used test sets. By closely following the original dataset creation processes, we test to what extent current classification models generalize to new data. We evaluate a broad range of models and find accuracy drops of 3% -15% on CIFAR-10 and 11% -14% on ImageNet. However, accuracy gains on the original test sets translate to larger gains on the new test sets. Our results suggest that the accuracy drops are not caused by adaptivity, but by the models' inability to generalize to slightly "harder" images than those found in the original test sets.
translated by 谷歌翻译